大数据隐私保护研究技术有哪些
大数据隐私保护研究技术有以下这些:
数据脱敏:数据脱敏技术是指对某些敏感信息通过脱敏规则进行数据的变形,实现对敏感及隐私数据的可靠保护。它有别于加密技术,加密技术是指在数据存储或者传输过程中对数据使用密钥进行处理,变成不可见的密文,在需要使用时,要用密钥对数据进行反向运算获得真实数据。而数据脱敏技术是对数据进行一定逻辑的处理和运算,但是处理过后的数据并不是密文,而是完全有别于原文的另一套明文,在使用时无须反向运算即可直接使用。
敏感数据发现:基于大数据计算框架可实现海量数据的自动分词、向量化、特征提取、特征降维、权重计算、决策树生成等方法,解决结构化数据表、文字、图像、视频等数据的敏感内容识别与提取问题,实现在海量数据中自动、高效、准确地甄别敏感数据,为敏感数据的定向及精准脱敏提供支持。
数据匿名保护:数据匿名保护技术在隐私披露风险和数据精度间进行折中,有选择地发布敏感数据极可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内。数据匿名化一般采用两种基本操作。一种是抑制某数据项,即不发布该数据项;另一种是泛化,对数据进行更概括、抽象的描述。常见的数据匿名化模型方法包括k-匿名、l-多样化、t-贴近等。
密文搜索:密文搜索技术是实现隐私数据安全共享的重要技术,这种技术通常要求数据拥有者在将数据密文传输到服务器之前,首先提取该数据的关键词并进行加密,将加密的关键词和加密数据作为整个密文传输给存储服务器。目前密文检索的方法主要分为两种:对称检索加密和非对称检索加密。对称检索加密主要用于加密数据的内容检索,也可用于实现关键词可检索的对称加密。非对称检索加密主要适用于不同用户访问数据,还可以实现连续关键词检索和区间询问。
差分隐私保护:差分隐私保护是基于数据失真的隐私保护技术,采用添加噪声的方法使隐私数据失真但同时保持某些数据或数据属性不变,要求处理后的数据仍然保持某些统计方面的性质,以便进行数据挖掘等操作。差分隐私保护技术可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,因此即使在最坏情况下,攻击者已知除一条记录之外的所有隐私数据,仍可以保证这一条记录的隐私信息不会被泄露。